关于此数据集: 该数据集是关于多种红酒成分和质量的数据集。对于每一种红酒, 该数据集提供了红酒的成分(比如含糖量、pH值等),以及红酒品酒专家给此种红酒品质的 打分。在这份报告中,我将探索这份数据集中不同变量之间的关系。
## Observations: 1,599
## Variables: 13
## $ X <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13...
## $ fixed.acidity <dbl> 7.4, 7.8, 7.8, 11.2, 7.4, 7.4, 7.9, 7.3, ...
## $ volatile.acidity <dbl> 0.700, 0.880, 0.760, 0.280, 0.700, 0.660,...
## $ citric.acid <dbl> 0.00, 0.00, 0.04, 0.56, 0.00, 0.00, 0.06,...
## $ residual.sugar <dbl> 1.9, 2.6, 2.3, 1.9, 1.9, 1.8, 1.6, 1.2, 2...
## $ chlorides <dbl> 0.076, 0.098, 0.092, 0.075, 0.076, 0.075,...
## $ free.sulfur.dioxide <dbl> 11, 25, 15, 17, 11, 13, 15, 15, 9, 17, 15...
## $ total.sulfur.dioxide <dbl> 34, 67, 54, 60, 34, 40, 59, 21, 18, 102, ...
## $ density <dbl> 0.9978, 0.9968, 0.9970, 0.9980, 0.9978, 0...
## $ pH <dbl> 3.51, 3.20, 3.26, 3.16, 3.51, 3.51, 3.30,...
## $ sulphates <dbl> 0.56, 0.68, 0.65, 0.58, 0.56, 0.56, 0.46,...
## $ alcohol <dbl> 9.4, 9.8, 9.8, 9.8, 9.4, 9.4, 9.4, 10.0, ...
## $ quality <int> 5, 5, 5, 6, 5, 5, 5, 7, 7, 5, 5, 5, 5, 5,...
对于该数据集,我看到其中有13个变量,同时有1,599条记录。其中,X变量标识了每一条 不同的记录,和红酒的质量以及其他数据没有任何关系,因此没有统计学上的意义。 在这份报告之后的数据集中,我将去掉这个变量。
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide
## Min. :0.01200 Min. : 1.00 Min. : 6.00
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00
## Median :0.07900 Median :14.00 Median : 38.00
## Mean :0.08747 Mean :15.87 Mean : 46.47
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00
## Max. :0.61100 Max. :72.00 Max. :289.00
## density pH sulphates alcohol
## Min. :0.9901 Min. :2.740 Min. :0.3300 Min. : 8.40
## 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50
## Median :0.9968 Median :3.310 Median :0.6200 Median :10.20
## Mean :0.9967 Mean :3.311 Mean :0.6581 Mean :10.42
## 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10
## Max. :1.0037 Max. :4.010 Max. :2.0000 Max. :14.90
## quality
## Min. :3.000
## 1st Qu.:5.000
## Median :6.000
## Mean :5.636
## 3rd Qu.:6.000
## Max. :8.000
上图列出了每一个变量的分布。我可以看到,红酒基本都是酸性(最大pH为4.010)。 除了density, pH, alcohol, quality这几个变量之外,其他变量都有outlier。
下面,我会画出每一个变量的histogram,来观察每一个变量的分布。
fixed acidity分布,看起来呈现了左偏的状态。
volatile acidity分布,看起来是一个“双峰”,分别出现在volatile.acidity = 0.4和0.6的时候。
citric.acid分布,大部分的数据其实是为0的。几乎没有多少数据超过了0.5这个值。
residual.sugar分布,大部分的数据集中在0 -4这个区间之内。
chlorides分布。主要数据呈现近似的正态分布。中位数、均值大约在0.08左右。
free.sulfur.dioxide分布。其主要数据呈现左偏的状态。 大部分数据的值集中在0 - 10之间。
total.sulfur.dioxide分布。其主要数据呈现左偏的状态。 大部分数据的值集中在0 - 50之间。
density分布。其呈现了一种近乎于正态分布的状态。同时,density的数据跨度非常密集。 几乎所有的数据都集中在了0.995 - 1.000之间。从某种程度上来说,这证明了每一种酒的 密度几乎都差不多。
pH分布。同density一样,pH也呈现了一种近乎于正态分布的状态,也并没有特别大的 数据跨度,大部分集中在了3.0 - 3.5之间,极少有超过4.0的。这也证明了红酒几乎 是酸性的物质,大部分的红酒pH也几乎在同一个级别中。
sulphates分布。数据呈现左偏状态。并且数据的跨度集中在0.5 - 1.0之间。
alcohol分布。数据呈现左偏状态,不过,数据的跨度较大,分布在9 - 14之间。这证明了 不同的红酒之间酒精含量还是不一样的。
该数据集包含了12个有统计意义的变量,以及一个用来标识每一条不同记录的ID变量。 我感兴趣的变量主要是12个有统计意义的变量。
对于这份数据集,我对于什么样的成分影响了红酒质量比较感兴趣。因此,我选择了 fixed acidity, volatile acidity, citric acid, residual sugar, chlorides and alcohol这五个变量作为主要研究对象。
对于剩余的变量,free sulfur dioxide, total sulfur dioxide, pH, density and
sulphates,我也会研究他们。我想这对于发现红酒质量受什么样的因素影响也很重要。
在这个点上,我目前没有发现需要创建新变量的必要。如果之后有必要 (对探索数据有影响),我会创建新的变量。
数据集中有许多左偏的变量,alcohol, sulphates, total.sulfur.dioxide and free.sulfur.dioxide这些变量的分布均呈现左偏状态。
P(2 - 1), 主要研究变量和quality之间的相关性系数(使用Pearson相关性系数)。
P(2 - 2), 其他变量和quality之间的相关性系数(使用Pearson相关性系数)。
P(2 - 3), 除了红酒质量之外,其他所有变量之间的Pearson相关系数。
就相关性系数表格上看,我只能看到alcohol和quality之间有较大的相关性(0.48)。 而citric.acid和quality也呈现一定的关系,但是不大(0.23)。另外看起来, 其他变量和quality之间似乎没有多大的相关性(相关性系数小于0.3)。
而从P(2 - 3)中可以看到,pH, density and citric.acid这三个变量和fixed.acidity之间 似乎有较强的相关性。
alcohol变量和红酒质量的关系:
P(2 - 4) 酒精含量与红酒质量之间的关系
由此图可以看出,在酒精含量小于13的时候,酒精含量越高,红酒的质量越好。但是在酒精 含量大于13的时候,红酒的质量反而下降了。这也许是由于酒精含量过于大的关系。
探索citric.acid和红酒质量之间的关系。
P(2 - 5) 柠檬酸含量和红酒质量之间的关系
此图可以看出,在柠檬酸含量为0.25 - 0.5之间,和红酒质量有一定的正相关关系。但是 除此之外,并没有非常强的相关性。
变量free.sulfur.dioxide和total.sulfur.dioxide有较强的相关性。我认为,由于 total.sulfur.dioxide和free.sulfur.dioxide都是同一类化学物质,因此这样的关系也在 清理之中。
根据三幅相关性变量的图,我主要探索了pH,density和citric.acid这三个变量 同fixed.acidity这个变量之间的关系,我在下面进行了Pearson’s correlation test。
变量pH和fixed.acidity之间的Pearson’s correlation test。
##
## Pearson's product-moment correlation
##
## data: wine_data$pH and wine_data$fixed.acidity
## t = -37.366, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7082857 -0.6559174
## sample estimates:
## cor
## -0.6829782
变量density和fixed.acidity之间的Pearson’s correlation test。
##
## Pearson's product-moment correlation
##
## data: wine_data$density and wine_data$fixed.acidity
## t = 35.877, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6399847 0.6943302
## sample estimates:
## cor
## 0.6680473
变量citric.acid和fixed.acidity之间的Pearson’s correlation test。
##
## Pearson's product-moment correlation
##
## data: wine_data$citric.acid and wine_data$fixed.acidity
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6438839 0.6977493
## sample estimates:
## cor
## 0.6717034
从上图中可以看到,pH和fixed.acidity之间的相关性最强,绝对值为0.683。他们实际呈 负线性相关,Pearson’s correlation coefficient为-0.683。
鉴于酒精含量和红酒的质量相关性较大,我希望能看一看酒精含量在不同的红酒质量级别中 是如何分布的。
# 画出在不同quality levels之下变量alcohol的分布
ggplot(data = wine_data, aes(x = factor(quality), y = alcohol)) +
geom_jitter(alpha = 1 / 10, color = '#EE2233' ) +
geom_boxplot() +
stat_summary(fun.y = 'mean', geom = 'point', color = 'blue') +
xlab('Quality Levels (3 - 8)') +
ylab('Alcohol Content (% by volume)') +
ggtitle('Boxplot of alcohol across qualities')
由此图可以看出,在quality = 5的时候,outlier较多,这同时也会拉高quality的平均数。 在quality偏低(<=5)时,从中位数和平均数的关系来看,分布几乎都是左偏分布, 较小的数据比较密集。
从boxplot之间的分布来看,大致上alcohol经历了一增一减。quality从4 - 5的是 一个减的过程,而从5之后是一个增加的过程。
因此,看起来,简单的相关性系数(0.48)并不能完全反映真实的数据分布。
首先,我还是从quality和其他变量的一些关系开始探索。
下图展示了pH, fixed acidity以及qulity之间的关系。
可以看出,不管是哪一种quality,他们的关系都是呈现出负相关性。这和P(2 - 3)表示出 的相关性关系差不多。
接下来,我探索citric acid, alcohol以及quality之间的关系。
由上图可以看出,在不同的quality之下,alcohol和citric.acid之间的相关性差距较大。 尽管在双变量探索中,我分析出alcohol和citric.acid之间并没有非常强的相关性关系。 但是在某些不同的的quality level中,这两者甚至具有非常强大的相关性。
最后,是Alcohol, Density以及quality之间的关系。
上图可知,density和alcohol之间也具有非常强的负相关性。这其实非常奇怪。因为酒精 含量高,密度反而低了。或许是由于酒精的密度低于水的缘故。
从P3-1和P3-3中可以看出,即便在不同的quality之下,这些变量依然保持比较好的相关性, 这也印证了双变量探索中的探索。
图P3-2是展示了一种非常意外的情况。事实上,alcohol和citric.acid本身的相关性系数并 不高。但是,根据不同的quality levels划分之后,图中显示他们在某些quality levels 之下却有这非常强的相关性。
根据以上探索结果,我可以画出以下三幅图来作为总结。
图一,主要描述了alcohol对于酒精质量的影响。可以看出两者呈现出正相关。
图二,描述了除了quality这个Output变量之外,其他自变量的相关性关系。可以看出, pH - fixed.acidity, density - fixed.acidity, citric.acid - fixed.acidity这三组 变量之间的关系最大。
图三,描述了alcohol, citric.acid在不同quality层面之间的关系。其中可以看出, 在quality为5的时候,两者之间的相关性程度最高。
自拿到数据集伊始,我就认为11个input变量中一定有会和quality有很大程度的关系。 没有想到的是,在做双变量分析时,并没有一个变量和红酒质量有强相关性 (pearson相关系数大于0.6),这是一个很大的shock。
因此我首先探索了和quality变量相关性较为明显的alcohol变量。同时,我看到了pH和 fixed.acidity,以及alcohol和citric.acid之间的一种比较强大的相关性,因此我选择了 观察他们之间的关系。而根据不同的quality质量变化,我又发现了在不同的quality level 之下,alcohol - citric.acid之间或许存在某种潜在的相关性。
对于F.3这张图,需要考察在不同quality中这两个变量是否真的存在这种关系,如果存在 这种关系,也需要考察这种关系的前因后果。究竟这样的负相关,只是一种数据上的巧合, 还是一种潜在的客观存在的关系。
在下一步中,我希望能进一步探索这四个变量之间的关系。希望能够建立相关模型, 对于新的红酒数据,在知道density, citric.acid和pH之后, 能推测出fixed.acidity这个值。